![]() 瞬時ピークレベル管理とスピーチの清澄の改良方法
专利摘要:
遅延なく高レベルの振幅ピークを瞬時に除去し、聴覚器官に対する防御を提供しながら、より清澄にするために及び知覚的な利点を得るために、音のソフトで中間レベルの振幅を増加させる方法である。この方法は、処理を行うためにフィードバック機構を必要とせず、ピーククリッピングに関連したゆがみを含む、短期間信号の可聴度を減少させる一時的な統合の精神的な音響減少を利用する。人間の聴覚システムは、短期間の波形ピークによってもたらされるよりも、可聴度に対して信号エネルギー統合するためにより長い時間を必要とする。 公开号:JP2011511964A 申请号:JP2010545165 申请日:2009-01-29 公开日:2011-04-14 发明作者:シュバイツァー、エイチ.・クリストファー;スミス、デスモンド・アーサー 申请人:エイブル・プラネット,インコーポレイテッド;シュバイツァー、エイチ.・クリストファー;スミス、デスモンド・アーサー; IPC主号:G10L21-02
专利说明:
[0001] 本発明はオーディオ信号処理に関する。特に、本発明は母音の音質を保持しながら、子音可聴度を改良し、音響インパルスの一時的なダメージを除去して聞きやすくするために、オーディオ信号ピークをダイナミックに瞬時に調節する改良されたシステムと方法とに関する。] 背景技術 [0002] ディジタル制御方法により可能となった信号処理の科学と技術は、急峻でフレキシブルなフィルタリング、ダイナミックレンジの圧縮、ピッチ変換及び種々のノイズ低減スキームを含む、信号改良方法の広範囲な開発を可能としてきた。信号振幅のダイナミックレンジ圧縮領域では特に、大部分の先行技術でのアプローチは、ある検出閾値と電圧制御メカニズムが規定された出力レベルを超える出力を減少するために使用されているフィードバックループを必要とした。これらのアプローチは必要により、持続時間を数十ミリ秒に調節するために、時定数や時間遅延を導入した。知覚障害はしばしばこのような遅延時間から生じる。更に、僅かな一時的ピークは適応性のあるプロセス期間を通じて通過し、それは内耳の有毛細胞を潜在的に傷つける。インパルスノイズダメージはしばしば期間の長いノイズから生じる聴覚ダメージより起こりやすく、それは人間の聴覚システムでの大きな音を経験するのに必要な統合(積分)時間が100から200ミリ秒のオーダーであるという事実による。別の言い方をすると、物理的にダメージを起こす強度レベルは、聴取者を強制的に退去させるような音響的な精神分析方法では、聴衆者が知覚したり経験したりすることはない。] [0003] 非常に高いピーク強度及び、又は制御ダイナミックレベルを低減するための信号処理方法は、オーランに発行された米国特許第4,249,042に開示されていて、その方法は周波数帯分離とゲイン制御フィードバックループの使用を必要としている。その方法はオーバーシュート防御のためのクリッピング技術を使用しているが、本発明はクリッピングの使用に関して上記'042特許の開示とは重要で且つ革新的な相違点を有することを以下の説明で明らかにします。] [0004] 同じくオーランに与えられた米国特許第4,208,548と第5,168,526は、特にアナログ電圧の増幅システムにおけるクリッピングを制御する方法を提案しているが、また望ましくないディストーション(ゆがみ)を除去するための高周波フィルター方法を使用している。高周波フィルタリングは、複合信号の低周波の相互変調ディストーション成分を除去しない点に注意する必要がある。本発明は、いくつかの異なる検出特性を有し、知覚のディストーションを除去するフィルター技術を必要としない。] [0005] バタチャリャ等に与えられた米国特許第5,815,532は、キャリア周波数が制御サイドバンドで細分化されるラジオ放送信号を処理する方法を開示している。最近、米国特許第5,255,325においてイシミツ等は、フィードバックループから生じる遅延を調節するための時間コンスタントテーブルを用いた自動ゲインコントロールの他の方法を記述している。] [0006] 同様に、オールレッドに与えられた米国特許第6,757,396は、フィードバックループデザインに関係した遅延を明確に導入している。一方、山田に与えられた米国特許第7,233,200は、入力信号の期間単位で入力信号のシグナルレベルを検出することに基づいて適当な回復時間コンスタントを概算する方法論を記述している。しかしながら、山田によって開示された方法は、記録の目的でなされており、リアルタイムな応用には適していない。特に、本発明のシステムと方法は、録音されたオーディオ処理及びライブなオーディオ処理の両方に適している。] [0007] 本発明の処理方法は、先行技術で解決されていないこれらの問題点を、共通に使用されているフィードバックループを使用せずに、制御されたピーククリッピングと信号検出の革新的な方法を提供することにより解決している。この方法は、ソフトで中間的な音の正確に計算された増幅を、聴覚の詳細な認識、特にスピーチ理解のために導入している。同時に、瞬時ベースで短い持続期間の高レベルインパルススパイクを低減する。これにより蝸牛殻の重要なヘアー繊毛のストレスを効果的に弱くし、その結果リスナーに価値のあるヒアリング会話の利点を与える。エンターテイメント、遠距離通信及び他のオーディオ装置の高レベル出力と延長されたリスニング時間とのコンビネーションは、永続的な知覚神経のヒアリングを害すると良く理解されている。数時間のオーディオ信号伝送の際でさえも起こる多数のインパルスピークに晒されることを低減することによって、明確な防御と予防的利点が本発明のシステムと処理されたオーディオ信号を操作する方法によって期待できる。] 図面の簡単な説明 [0008] 本発明の処理ステージのフロー図である。 平均的なエネルギー分布がピークエネルギー値下で10dBにあること(ピークの32%)を示す録音された音楽の流れの例の音響パターンを示すグラフである。 10dBを超えるエックスカージョンによるトータルパワーの寄与が、残りの信号によって寄与されるパワーの半分以下であることを示す図2の音響パターンの拡大図である。 図2の波形からのピークパワーの10dB以上のピーク削除を示している。 クリッピング(或いは10dBによりオーバードライブされた)後に増幅された図2−4の信号を示す。 持続期間の関数として検出能力の急峻な減少を示す人間のリスナーの古典的な時間統合(積分)パターンを示す。ラウドネスは信号持続期間が約100ミリ秒に達するまで十分に統合されない。 本発明の処理をしていない単一センテンスのスピーチサンプルの平均化されたスペクトルを示している。低周波は一般に強度が大きく、高周波の子音知覚をより困難にしている。 本発明の処理を施した図7に示されたスピーチセンテンスを示し、平均化されたスペクトルが、周波数応答を望ましくないバイアスをすることなく、低周波領域をフィルタリングすることによって平滑化されていることが示されている。 9aは、"Intuition"というワードの女性スピーカの発音の音響波形を示す。9bは、9aの波形を本発明に基づき処理したもので、ソフト子音が強調され、聞き取れるように清澄されている。 10aは、男性スピーカのセンテンスの発音の音響的波形であり、同時に一連のシャープな高強度インパルスが重畳されている。本発明による処理の後(10b)に、インパルススパイクは完全に除去される。同時に、ソフトスピーチは強調されより清澄されている。10bは、本発明による処理を10aの波形に施したもので、インパルススパイクが除去され、ソフトスピーチが強調され、聞き取れるように音が清澄されている。] 図2 図7 実施例 [0009] 以下の説明は例であって、ここに示される概念は単一のオーディオ処理装置を用いた使用や応用に限定されない。ここで記述される処理の革新についての詳細は、代表的な実施例に関しての図示や説明であるが、開示された原理はオーディオ電気信号伝送の他のタイプや応用に適用できる。本発明はディジタルやアナログ構成の両方に搭載できる。アナログの場合には、RC時定数を上手く選ぶと、次のパラグラフで記述される発明のユニークな検出と処理ステージが可能となる。一方、ディジタル形式の場合には、適切なパラメータをプログラムする問題である。] [0010] 図1を参照すると、図2に示されている録音された音楽の一節や図7に示されている人間のスピーチパターンのようなダイナミックに変化する信号が振幅変化速度に依存して異なる3つの時間分析ウィンドウ内で調査され処理される。ゆがみフリーの高速検出器は2ミリ秒のアタックとリリースを短時間のインパルスや振幅のクイック変化に与え、例えば、振幅の変化は約2ミリ秒から約2秒の範囲で起こる。急速な振幅の低下は高速なリリースエレメントをトリガーする。このようにして、アタックとリリースの両方が、入力振幅変化速度に依存している。] 図1 図2 図7 [0011] リズミカルなボーカルパターンのようなより低速の信号振幅変化は、2000ミリ秒(2秒)のアタックとリリース時間で管理される。この期間はいくつかの話し語葉をカバーし、音声の一般的レベルを見分けることが可能である。本質的に、この方法のこの内容は、信号出力の清澄と自然な状態をベストに維持するためにスピーチ信号の到来レベルを連続して監視し、入力信号振幅の変化の速度が約2秒より大きい場合にはクリッピングステップのスピードを低減する。] [0012] 本発明は、人間の聴覚システムにおける時間的な統合(積分)の精神的な音響特性を利用している。これは、本方法の重要な事項である。信号のラウドネスは約100ミリ秒の時間ウィンドウ内で統合される。このように、短期間のインパルススパイクはかなり音をソフトにし、しばしば殆ど知覚されない。このことは図3、図4に示されている。その例では、音楽の一節の特別ダイナミックな振幅パターンが描かれていて、例として、本発明により除去されて振幅ピークの10dBの低減がなされ、精神的な音響学により決定される時間的統合により実際に起こるラウドネスの低減はほんの0.2dBである。短時間のトランジエントが起こる全体の期間はほんの約10ミリ秒或いは100ミリ秒のラウドネス統合ウィンドウの1/10であるので、ピークレベルは100ミリ秒の聴覚統合ウィンドウの全パワーの1/20より少ない寄与をする。このことは、ラウドネスの増加は10(log(1+1/20))或いはほんの0.2dBである。このようにピークパワーを瞬間的に制限してもラウドネスに影響を及ぼさないことを意味している。しかし、潜在的にダメージを与えるスパイクは除去される。従来技術では、クリッピングが可聴度にゆがみを引き起こすと推定しているが、これは実際に非常に短時間のビジュアルな信号解析を非常に長引かせ、しばしば凍結させる従来の測定方法に基づいている。ハーモニックはクリッピングから生じるというような、短時間の信号ゆがみの知覚上の結果のこのような常識的に誤った記述は、本発明の方法のユニークな特徴に直接関連している。] 図3 図4 [0013] 図5を参照すると、図3と図4のオーディオ信号は、クリッピングの後に増幅され、或いは10dBほどオーバードライブされている。長期間の信号の平均レベルは増加され、ソフトで中間レベルの音に対するラウドネスを増加させていて、その結果、信号の細部の詳細と清澄度とを高めている。] 図3 図4 図5 [0014] 例えば2ミリ秒より低い非常に高速な高レベルインパルスは、図1に示された第3ステージによってダウンワードに瞬間的に調節される。第3ステージでは、時間遅延のない制御されたクリッピングが与えられる。これらの信号は時間的に非常に短いので、クリッピングに関連したゆがみを、図6や以前に説明された短期間の統合方法により一般的にごく僅かなレベルにする。] 図1 図6 [0015] オーディオシステムにおけるスピーチの清澄と特にノイズ入力環境は、低周波で、高エネルギーの母音のより大きな強度によってしばしば引き起こされる。そのような母音は高周波で、低強度の子音をマスクしやすい。従来では、しばしば低周波ノイズと音声成分を弱めるためにフィルター技術が用いられてきた。ある場合には、高周波の多いスペクトルをバイアスすることが試みられている。上記従来の両方法では、望ましくないブリキのような音を生成したり、音質にマイナスな効果を与える。本発明は、フィルタリングや周波数バイアスを行なうことなく、ソフトで中間レベルの全ての音を増大することによりこの問題を除去する。印加されるゲイン値の範囲は、約1dBから40dBである。ソフトなスピーチ音がシステムを通過するので、母音とボーカル特性を歪ませることなく、しかしよりソフトでボイスレスの子音の強度と認知性を明確に向上させて、スペクトルの平滑化を達成できる。このことは図7と図8に明確に描かれている。更に、図9は多重音節の言葉”intuition”を発する女性スピーカの一連の波形を示している。”T”と”SH”のようなソフトな子音が、本発明を用いて処理された例で、強調されていることが明らかである。] 図7 図8 図9 [0016] この処理により元のボーカル特性は変化していないが、同時に清澄特性の向上をもたらしていることに注目する必要がある。] [0017] 突然急峻に変化する音響的スパイクは、内耳のデリケートな有毛細胞を悩ませ、潜在的にダメージを与える。本発明は、そのようなインパルス(図10)を、従来のアプローチに関連した遅延や追加のゆがみをもたらすことなく、瞬間的に除去する。] 図10 [0018] パルス状のインパルスの列(或いは連続した波状の、或いは複雑な信号のピーク)は長期間信号として処理される。アタックとリリースは指数関数であるので、スピーチにおける母音の終端を比較的速く再生することができ、子音とか、例えば音楽における他の低レベルの音を十分に増幅できる。] [0019] 上記方法、装置や構造を、本発明の概念から外れることなく改良することができる。上記説明に含まれる事項や添付の図面に示された内容は、例示であって、限定的に解釈すべきではない。以下の請求項はここで記述した一般的で特別な特徴を包含していると共に、本発明の方法、装置及び構造の概念を記述しており、言葉の内容として前記概念は本発明に含まれる。]
权利要求:
請求項1 音響スピーチ信号の清澄を改善する方法であって、入力信号の平均レベルを連続的に測定するステップと、少なくとも1つのゲイン値をスピーチ信号に所定のファクタだけあてがうステップと、入力スピーチ信号のピーク値を予め計算された量だけ同時にクリッピングするステップであって、そうすることによりソフトな高周波無声のスピーチ成分を知覚的に増大させる、クリッピングするステップと、を含む方法。 請求項2 入力信号の波形振幅と波形振幅変化速度を連続的に測定するステップを更に含む請求項1に記載の方法。 請求項3 前記波形の振幅の測定された速度に応答して、前記クリッピングするステップのスピードを調節する、請求項2に記載の方法。 請求項4 前記クリッピングするステップは、波形振幅の変化の速度が2.0ミリ秒より低い場合に同時に実行される、請求項3に記載の方法。 請求項5 前記クリッピングするステップのスピードは、波形振幅変化の速度が2.0ミリ秒より大きい場合に、減少される、請求項3に記載の方法。 請求項6 前記クリッピングステップのスピードは、波形振幅変化の速度が2.0秒より大きい場合に更に減少される、請求項5に記載の方法。 請求項7 印加ゲイン値の範囲は、約1dBから約40dBである、請求項1に記載の方法。 請求項8 前記入力信号はブロードバンド信号である、請求項1に記載の方法。 請求項9 前記入力信号は多重周波数バンドセグメント信号である、請求項1に記載の方法。
类似技术:
公开号 | 公开日 | 专利标题 US10361671B2|2019-07-23|Methods and apparatus for adjusting a level of an audio signal US10586557B2|2020-03-10|Voice activity detector for audio signals US9615170B2|2017-04-04|Approach for partially preserving music in the presence of intelligible speech Kates et al.2014|The hearing-aid speech perception index | EP2002429B1|2012-11-21|Controlling a perceived loudness characteristic of an audio signal AU781062B2|2005-05-05|Hearing aid device incorporating signal processing techniques US6353671B1|2002-03-05|Signal processing circuit and method for increasing speech intelligibility EP1889258B1|2017-03-01|Adapted audio response US9361901B2|2016-06-07|Integrated speech intelligibility enhancement system and acoustic echo canceller US6993480B1|2006-01-31|Voice intelligibility enhancement system DE69531828T2|2004-07-01|Hörhilfegerät mit signalverarbeitungstechniken Rhebergen et al.2005|A speech intelligibility index-based approach to predict the speech reception threshold for sentences in fluctuating noise for normal-hearing listeners US20160165361A1|2016-06-09|Apparatus and method for digital signal processing with microphones Moore et al.2008|Spectro-temporal characteristics of speech at high frequencies, and the potential for restoration of audibility to people with mild-to-moderate hearing loss EP2082480B1|2019-07-24|Audio dynamics processing using a reset Festen et al.1990|Effects of fluctuating noise and interfering speech on the speech‐reception threshold for impaired and normal hearing US8296154B2|2012-10-23|Emphasis of short-duration transient speech features TWI459828B|2014-11-01|在多頻道音訊中決定語音相關頻道的音量降低比例的方法及系統 US9768751B2|2017-09-19|Audio system including multiband audio dynamics processor US4630302A|1986-12-16|Hearing aid method and apparatus Moore2008|The choice of compression speed in hearing aids: Theoretical and practical considerations and the role of individual differences TWI397058B|2013-05-21|音頻訊號之處理裝置及其方法,及電腦可讀取之紀錄媒體 US7418379B2|2008-08-26|Circuit for improving the intelligibility of audio signals containing speech Stone et al.2008|Effects of spectro-temporal modulation changes produced by multi-channel compression on intelligibility in a competing-speech task KR100636248B1|2006-10-19|보컬 제거 장치 및 방법
同族专利:
公开号 | 公开日 CA2718968A1|2009-08-06| AU2009209090B2|2013-05-02| NZ587052A|2013-04-26| AU2009209090A1|2009-08-06| EP2235720A1|2010-10-06| US20090192793A1|2009-07-30| JP5345638B2|2013-11-20| CN102144257A|2011-08-03| EP2235720A4|2012-01-25| WO2009097437A1|2009-08-06|
引用文献:
公开号 | 申请日 | 公开日 | 申请人 | 专利标题
法律状态:
2012-01-18| A621| Written request for application examination|Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120117 | 2012-12-25| A977| Report on retrieval|Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20121225 | 2013-01-16| A131| Notification of reasons for refusal|Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130115 | 2013-03-13| A521| Written amendment|Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130312 | 2013-07-10| TRDD| Decision of grant or rejection written| 2013-07-17| A01| Written decision to grant a patent or to grant a registration (utility model)|Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130716 | 2013-08-22| A61| First payment of annual fees (during grant procedure)|Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130814 | 2013-08-23| R150| Certificate of patent or registration of utility model|Free format text: JAPANESE INTERMEDIATE CODE: R150 | 2016-08-23| LAPS| Cancellation because of no payment of annual fees|
优先权:
[返回顶部]
申请号 | 申请日 | 专利标题 相关专利
Sulfonates, polymers, resist compositions and patterning process
Washing machine
Washing machine
Device for fixture finishing and tension adjusting of membrane
Structure for Equipping Band in a Plane Cathode Ray Tube
Process for preparation of 7 alpha-carboxyl 9, 11-epoxy steroids and intermediates useful therein an
国家/地区
|